基于硬件的加速度是促进许多计算密集型数学操作的广泛尝试。本文提出了一个基于FPGA的体系结构来加速卷积操作 - 在许多卷积神经网络模型中出现的复杂且昂贵的计算步骤。我们将设计定为标准卷积操作,打算以边缘-AI解决方案启动产品。该项目的目的是产生一个可以一次处理卷积层的FPGA IP核心。系统开发人员可以使用Verilog HDL作为体系结构的主要设计语言来部署IP核心。实验结果表明,我们在简单的边缘计算FPGA板上合成的单个计算核心可以提供0.224 GOPS。当董事会充分利用时,可以实现4.48 GOP。
translated by 谷歌翻译
在光场压缩中,基于图的编码功能强大,可以利用沿着不规则形状的信号冗余并获得良好的能量压实。然而,除了高度复杂性到处理高维图外,它们的图形构造方法对观点之间的差异信息的准确性非常敏感。在计算机软件生成的现实世界光场或合成光场中,由于渐晕效果和两种类型的光场视图之间的视图之间的巨大差异,将视差信息用于超射线投影可能会遭受不准确性。本文介绍了两种新型投影方案,导致差异信息的错误较小,其中一个投影方案还可以显着降低编码器和解码器的时间计算。实验结果表明,与原始投影方案和基于HEVC或基于JPEG PLENO的编码方法相比,使用这些建议可以大大增强超级像素的投影质量,以及率延伸性能。
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
可解释的AI(XAI)的目的是设计方法,以提供有关黑盒模型(例如深神经网络)的推理过程的见解,以便向人类解释它们。社会科学研究指出,这种解释应该是对话的,类似于人类对人类的解释。在这项工作中,我们使用包含自然语言理解和发电组成部分的代理的标准设计来展示如何将XAI纳入对话代理。我们以XAI问题库为基础,我们通过质量控制的释义扩展,以了解用户的信息需求。我们进一步系统地调查了文献,以提供适当的解释方法,这些方法提供了以回答这些问题的信息,并提供了全面的建议列表。我们的工作是使用解释代理进行有关机器学习模型的真正自然对话的第一步。 XAI问题的全面列表和相应的解释方法可能会支持其他研究人员提供必要的信息以满足用户的需求。
translated by 谷歌翻译
本文旨在解决多个对象跟踪(MOT),这是计算机视觉中的一个重要问题,但由于许多实际问题,尤其是阻塞,因此仍然具有挑战性。确实,我们提出了一种新的实时深度透视图 - 了解多个对象跟踪(DP-MOT)方法,以解决MOT中的闭塞问题。首先提出了一个简单但有效的主题深度估计(SODE),以在2D场景中自动以无监督的方式自动订购检测到的受试者的深度位置。使用SODE的输出,提出了一个新的活动伪3D KALMAN滤波器,即具有动态控制变量的Kalman滤波器的简单但有效的扩展,以动态更新对象的运动。此外,在数据关联步骤中提出了一种新的高阶关联方法,以合并检测到的对象之间的一阶和二阶关系。与标准MOT基准的最新MOT方法相比,提出的方法始终达到最先进的性能。
translated by 谷歌翻译
人们说:“一张照片值一千字”。那么,我们如何从图像中获取丰富的信息?我们认为,通过使用视觉线索来桥接大型的识别视觉基础模型和语言模型,我们可以无需任何额外的跨模式训练。得益于基础模型的强大零拍功能,我们首先构建图像的丰富语义表示(例如,图像标签,对象属性 /位置,字幕)作为结构化的文本提示,称为视觉线索,使用视觉基础模型。基于视觉线索,我们使用大型语言模型为视觉内容生成一系列综合描述,然后再次通过视觉模型验证,以选择与图像最合适的候选人。我们通过定量和定性测量评估生成的描述的质量。结果证明了这种结构化语义表示的有效性。
translated by 谷歌翻译
在本文中,我们介绍了时间多解决图形神经网络(TMGNN),这是两个学会构建多尺度和多分辨率图结构的第一个体系结构,并结合了时间序列信号以捕获动态图的时间变化。我们已经将我们提出的模型应用于预测流行病和大流行病的任务,该模型是根据几个欧洲国家从实际的covid-19-19-19大流行病和水痘流行中收集的历史时间序列数据,并获得了与其他竞争性的结果相比,与其他竞争性的结果相比先前的最新时间架构和图形学习算法。我们已经表明,捕获图的多尺度和多分辨率结构对于提取本地或全球信息很重要,这些信息在理解全球流行病(例如covid-9)的动态中起着至关重要世界。我们的工作为预测和减轻未来的流行病和流行病带来了有希望的研究方向。
translated by 谷歌翻译
随着近期智能手机或平板电脑的移动设备的爆炸性增长,保证了所有环境的一致网页外观已成为一个重大问题。这只是因为很难跟踪不同大小和渲染网页的设备类型的网络外观。因此,修复网页的不一致外观可能是困难的,并且所产生的成本可能是巨大的,例如,由于它的用户体验和财务损失差。最近,已经提出了自动化的Web修复技术来自动解决不一致的网页外观,专注于提高可用性。然而,生成的补丁倾向于破坏网页的布局,使修复的网页呈现美学令人难以释放,例如扭曲的图像或组件的未对准。在本文中,我们提出了一种基于Meta-heuristic算法的网页自动修复方法,可以保证可用性和美学。赋予我们方法的关键新颖性是一种新颖的健身功能,使我们能够乐观地发展错误的网页,以查找同时优化可用性和美学的最佳解决方案。实证评估表明,我们的方法能够在94%的评估科目中成功解决移动友好问题,在可用性和美学方面显着优于最先进的基线技术。
translated by 谷歌翻译
最近,多模态命名实体识别(MNER)引起了很多关注。大多数工作通过从预训练对象检测器获得的区域级视觉表示使用图像信息,并依赖于注意力机制来模拟图像和文本表示之间的交互。然而,难以模拟这种交互,因为图像和文本表示分别在其各自的模态的数据上训练,并且在相同的空间中不对齐。由于文本表示在MNER中取得最重要的作用,在本文中,我们提出了{\ bf i} mage - {\ bf t} ext {\ bf a} lignments(ita)将图像特征对准到文本空间中,这样可以更好地利用基于变压器的预磨削文本嵌入的注意机制。 ITA首先在本地和全局将区域对象标记和图像级标题视为可视上下文,将其与输入文本连接为新的跨模型输入,然后将其送入预训练的文本嵌入模型。这使得预先训练的文本嵌入模型的注意模块更容易模拟两个模态之间的交互,因为它们都在文本空间中表示。 ITA进一步对齐从跨模型输入和文本输入视图预测的输出分布,使得MNER模型可以更实用和鲁棒到图像中的噪声。在我们的实验中,我们表明ITA模型可以在多模态命名实体识别数据集上实现最先进的准确性,即使没有图像信息也是如此。
translated by 谷歌翻译
Recent advances in Named Entity Recognition (NER) show that document-level contexts can significantly improve model performance. In many application scenarios, however, such contexts are not available. In this paper, we propose to find external contexts of a sentence by retrieving and selecting a set of semantically relevant texts through a search engine, with the original sentence as the query. We find empirically that the contextual representations computed on the retrieval-based input view, constructed through the concatenation of a sentence and its external contexts, can achieve significantly improved performance compared to the original input view based only on the sentence. Furthermore, we can improve the model performance of both input views by Cooperative Learning, a training method that encourages the two input views to produce similar contextual representations or output label distributions. Experiments show that our approach can achieve new state-of-the-art performance on 8 NER data sets across 5 domains.
translated by 谷歌翻译